GTX680のグラフィック・GPGPU性能を調べる

製品	GTX680	GTX580	GTX560Ti	HD7970	HD6970
メーカ	NVIDIA			AMD
発売	2012/3	2010/11	2011/2	2012/1	2010/12
開発コード	GK104	GF110	GF114	Tahiti	Cayman
コアアーキテクチャ	Kepler	Fermi	Fermi	GCN	VLIW4
製造プロセス	TSMC 28nm HP	TSMC 40nm Bulk	TSMC 40nm Bulk	TSMC 28nm HP	TSMC 40nm Bulk
トランジスタ(億個)	35.4	30	19.5	43	26.4
ダイ面積(㎡)	294	512	332	365	389
Direct3D	11.1	11.0	11.0	11.1	11.0
OpenGL	4.2	4.2	4.2	4.2	4.2
コア数	1536	512	384	2048	1536
分岐粒度	32	32	32	64	64
クロック(MHz)	1006	1544/772	1644/822	925	880
ブースト(MHz)	1058	–	–	–	–
単精度 (TFLOPS)	3.090	1.581	1.263	3.789	2.703
倍精度 (TFLOPS)†	0.129（独自に算出）	0.791(0.198)	0.631(0.158)	0.947	0.683
メモリバス幅(bit)	256	384	256	384	256
メモリ転送速度(Gbps, GHz)	6.008, 1.502	4.008, 1.002	4.008/1.002	5.5, 1.375	5.5, 1.375
メモリ転送幅(GB/s)	192.26	192.38	128.3	264	176
メモリの種類	GDDR5	GDDR5	GDDR5	GDDR5	GDDR5
メモリ容量(GB)	2.0	1.5	2.0	3.0	2.0
テクスチャユニット	128	64	64	128	96
ピークテクスチャフィルレート(GTex/s)	128.8	49.4	52.5	118※	85※
FP16テクスチャフィルレート(GTex/s)	128.8	49.4	52.5	59※	43※
ROP	32	48	32	32	32
ピクセルフィルレート(GPix/s)‡	32※	37※	29※	30※	28※
ラスタライズポリゴン数(GTri/s)	4.024※	3.088※	1.800※	1.850※	1.780※
深度ステンシルOP	–	–	–	128	128
共有キャッシュ(kB)	512	768	512	768	512(read only)
動画再生支援	PV5？	PV4	PV4	名称不明，4K対応	UVD3
PCIe Gen	3.0（現時点では2.0）	2.0	2.0	3.0	2.1
TDP/消費電力(W)	195	244	170	260	250
アイドル電力(W)	–	–	–	13	20
スリープ電力(W)	–	–	–	3	–
電源コネクタ	6+6	8+6	6+6	8+6	8+6

†括弧内はGeForceの制限（Teslaの1/4）を考慮したFLOPS値

‡ピーク性能（テクスチャフォーマットにより変化）

※GPU-Zの表示，あるいはネットによる情報

—

ざっくりとまとめると，

演算速度

HD7970 >> GTX680 > HD6970 >>> GTX580

メモリ帯域

HD7970 >> GTX680 = GTX580 >>> GTX580

ピークテクスチャフィル（）

GTX680 > HD7970 >>> HD 6970 >>> GTX 580

ピクセルフィル

GTX580 >> GTX680 > HD 7970 > HD 6970

ラスタライズポリゴン数

GTX680 >> GTX580 >>> HD 7970 >= HD 6970

となります．

GPGPU性能はHD7970の方が上，グラフィック性能はGTX680になるという予想が立てられます．実際，ベンチマークがそれを証明しています．

—

なお，GK104はCUDAのCompute Capabilityが3.0に上がっています．

—

【イチオシ機能別比較】

比較は同じメーカーの旧機種を対象としており，GTX680とHD7970の比較ではありません．

GTX680

・KeplerアーキテクチャによるGPC/SM(X)構造の改良とスケジューラの効率化

・ホットクロック廃止

・テセレータ改善

・L2キャッシュの帯域引き上げとアトミック演算の高速化

・GPU Boost

・標準4画面出力

・Bindless Textures

・Adaptive VSync

・TXAA

・NVENC

HD 7970

・GCNアーキテクチャによるVLIW廃止とキャッシュ・ベクタ＋スカラユニット構成

・テセレータ改善

・Dual DMA engines

・PowerTune Technology

・ZeroCore Technology

・CPU側メモリとのキャッシュの一貫性保持

・Partially Resident Textures

・標準6画面出力とEyefinity 2.0

・UVDの4Kサイズ対応とQuarter SAD

—

【シェアードメモリ・キャッシュ】

面倒くさいので後で書く

—

【命令別スループット】

CUDA_C_Programming_Guide.pdf（CUDA Toolkit 4.2 同梱）

http://developer.amd.com/afds/assets/presentations/2620_final.pdf（PDF注意）

http://pc.watch.impress.co.jp/docs/column/kaigai/20120201_508791.html

1スレッドあたりの理論スループットの逆数を示します．1ならば，1クロックに1命令処理できることになります（最も好ましい）．2ならば，1クロックに0.5命令処理できることになります．なお，CPUでは1クロックに2命令以上処理できることがありますが，GPUでは起きません．これはコアの数え方がCPUとGPUで異なるからです．

Fは浮動小数，Iは整数を表します．

アーキテクチャ	GK104	GF1x0	GF1xx (除GF1x0)	GCN	VLIW4
F32加算・乗算	1	1	1	1	1
F32積和	1	1	1	1	1
F32 SFU	6	8	6	?	4※
F64加算	24	2	12	?	2
F64乗算・積和	24	2	12	4	4
I32加算	8/7	1	1	1	1
I32乗算・積和	6	2	3	4	4
I32 SAD	6	2	3	?	?
I32シフト	24	2	3	?	?
I32比較	24	2	3	?	?
論理演算	24/17	1	1	1	?
I24加算・乗算	複数命令	複数命令	複数命令	1	1
I24積和	複数命令	複数命令	複数命令	?	1
I24 SFU	複数命令	複数命令	複数命令	1	1
I64加算	?	?	?	?	4
型変換	24	2	3	?	?

※4ALUのうち3ALUを占有

注意：RadeonはVLIW4以降，ALUとSFUのリソースを共有しています．GeForceはG80以降，ALUとSFUが別になっています．

GK104が大変なことになっています．ゲームで多用されるF32以外ガン無視です．ここまでGPGPUを捨てるとは思いませんでした．Fermiから電力効率が大きく向上したのは，28nm以外にも整数や倍精度浮動小数を捨てたことが大きな理由だと言えます．

といっても，ピーク演算性能はGTX580の2倍なので，スループットが半分になってもなんとか使えます．問題はI32シフトとI32比較，型変換です．ここまで遅いと，いくらなんでもコア数やクロックではカバーできません．

GCNのスループットは不明な部分が多いですが，AMD曰く，コアにはそれほど手を入れていないそうなので，VLIW4とそれほど変わらないと思います．

—

【3DMark Vantage Color/Texture】

ROPとテクスチャ性能を調べます．

http://techreport.com/articles.x/22653/6

製品	GTX680	HD7970
Color Fill(GPix/s)	13.2	13.2
Texture Fill(GTex/s)	102	107
INT8 Texture Filtering(GTex/s)	105	103
FP16 Texture Filtering(GTex/s)	97	59

ほとんど差がありません．ピクセルフィル自体あまり速くないし，テクスチャのフェッチもキャッシュが効くので，メモリ帯域の影響が小さいようです．

明確に違うのはFP16のTexture Filteringで，HD7970はINT8の半分強の性能しか出ませんが，これは基本スペックの値と合致します．

HDRテクスチャを多用したゲームではGTX680の方が速くなりそうです．

【TessMark】

OpenGL 4.xを使って，テセレータの性能を調べます．

ソースは上記と同じ

製品	GTX680	HD7970
x16	65430	41508
x32	32432	15566
x64	12125	4342

GTX680がHD7970よりおよそ2倍のスコアになっています．

FermiのPolyMorph Engineが持つテセレーション性能も相当強烈でしたが，KeplerのPolyMorph Engine 2.0もそれ以上に強烈です．

HD7970は，Fermiと同程度の性能を持っているようです．

ただ，図を見るとHD7970よりHD7870の方が，スコアが上になってしまっています．おそらく，HD7970は925MHz，HD7870は1GHzだからだと考えられます．逆に言えば，HD7970とHD7870のテセレータは同等であると言えます．確かにブロック図では，7970も7870もテセレータは2つです．

—

【3DMark Vantage Feature Test】

Direct3D 10世代のベンチマークから，6種類のテストを行ってGPUの特性を調べます．

http://news.mynavi.jp/special/2012/kepler/001.html

http://news.mynavi.jp/special/2012/tahiti/002.html

http://techreport.com/articles.x/22653/7

（Feature Testの詳細）http://www.4gamer.net/games/044/G004413/20081128018/

FT1 “Texture Fill” 微小テクスチャのアルファブレンド上書き（テクスチャフィル，ROP）

FT2 “Color Fill” FP16バッファへのアルファブレンド上書き（ROP）

FT3 “Parallax Occlusion Mapping” セルフシャドウ付き視差遮蔽マッピング（テクスチャフェッチ，長いシェーダ，動的分岐）

FT4 “GPU Cloth” ばねシミュレーション（ストリームアウト，物理シミュ）

FT5 “GPU Particles” パーティクル（短いシェーダ，ジオメトリシェーダ）

FT6 “Perlin Noize” パーリンノイズ（長いシェーダ，ROP）

大原記事・THE TECH REPORTともにほぼ同一の結果なので，マイナビ大原記事のfps値を借ります．

製品	GTX680	HD7970
FT1	101	116
FT2	13	13
FT3	87	133
FT4	82	60
FT5	110	90
FT6	182	268

FT1はHD7970の方が少し速いですが，ピクセルフィルもテクスチャフィルも両機種の差はなかったので，アルファブレンド性能の違いでしょうか．アルファブレンドは元のテクスチャを一旦読み込まないといけないので，そこでメモリ帯域の差が影響したのかもしれません．

FT2はほぼ同じです．FP16テクスチャはHD7970では半速なので，ほぼ同じfpsになった原因は，やはりアルファブレンドによるメモリ帯域不足かもしれません．GPU-Zなどでメモリ負荷状況が示してあれば原因がはっきりしそうなのですが…．

FT3はHD7970がGTX680の約1.5倍速いです． FT6もそうですが，長くて複雑なシェーダはHD7970と相性が良いようです．HD7970はVLIW4を捨ててGPGPUを強化しており，一方でGTX680はスケジューラを簡素化しているので，複雑なシェーダほどHD7970の方が速くなるのはあり得る結果です．

FT4はGTX680…よりもGTX580の速さ(81fps)が目を引きますが，はっきりした原因は分かりません．HD7970もHD6970(48fps)と2割しか速くなっていません．

FT5もHD7970よりGTX680の方が速いので，VLIW4もGCNも短いシェーダ＆多数のスレッドにあまり強くない（スレッドレベル並列性に弱く，命令レベル並列性に強い）アーキテクチャなのかもしれません．

まとめると，GTX680はアルファブレンドが若干弱く，長いシェーダではHD7970より遅い，HD7970は短いシェーダに弱い，という点が注意すべきポイントになりそうです．

—

【DirectX SDK Sample】

おそらくJune 2010版のDirect3D 11のサンプルのfpsを測ったものです．

http://www.ixbt.com/video3/gk104-part2.shtml（ロシア語）

製品	GTX680	HD7970
HDR Tone Mapping CS	752	852
N-Body Gravity	520	359
Detail Tessellation (Bump)	1297	1702
Detail Tessellation (Parallax Occlusion)	388	557
Detail Tessellation (Tessellator)	929	927
PN Triangles factor 1	3530	3417
PN Triangles factor 5	2742	2246
PN Triangles factor 9	1627	889
PN Triangles factor 19	571	162
Water LOD 1	75.6	96.2
Water LOD 25	64.5	32.6
Water LOD 50	52.9	15.4
Water LOD 100	35.7	6.7

FP16が半速にならないGTX680なのにHDRが遅いということは，やはりメモリが原因でしょうか．もしかすると，型変換がやたら遅くなってしまったことも影響しているかもしれません．

N-BodyはGPU Particleと似た処理なので，結果もFT5と似ています．パーティクルをばら撒くのにGTX680は適しているようです．GTX680もHD7970も，一世代前の製品に比べてピーク性能比だけ速くなっているように見えます．

バンプマップは，GTX580とGTX680の差がありません．シェーダ負荷がかなり低いので，GTX580の高いピクセルフィルレートが影響したのかもしれません．そもそも，一世代前の`GPUでさえ1000fpsを超えるような軽いシェーダで比較しても意味がありません．

視差遮蔽マッピングはFT3と同じ傾向です（当たり前ですが）．

テセレータを使うと，GTX680とHD7970の差がなくなります．

PNトライアングルもWaterもテセレータのベンチですので，TessMarkから推測できる範囲の結果になっています．

—

【Sandra 2012】

http://news.mynavi.jp/special/2012/kepler/004.html

http://news.mynavi.jp/special/2012/tahiti/005.html

http://www.tomshardware.com/reviews/geforce-gtx-680-review-benchmark,3161-14.html

GPGPU性能を測ります．汎用演算，暗号化，メモリ帯域の3種類があります．かなりややこしい結果になっています．

初めに一番わかりやすいメモリ帯域を見てみます．

CUDAはOpenCL似た結果になっているので，省略します．単位はGB/sです．

InternalはVRAMの帯域，System->Device/Device->SystemはPCIeの転送速度を計測しています．

製品	GTX680	HD7970
OpenCL Internal	145	186
OpenCL System->Device	5.68	10.5
OpenCL Device->System	6.17	11.7
DirectCompute Internal	137	200
DirectCompute System->Device	4.27	9.00
DirectCompute Device->System	5.40	5.85

InternalはGTX680もHD7970もピークの8割前後になっています．HD7970は384bitなので，GTX680より速いのは自然です．

HD7970はPCIe Gen3.0で動作しているので，System->Device/Device->SystemがGTX680の2倍近く速いです．ただし，PCIe Gen3.0に対応していないマザーボードならば，GTX680と同程度の速度になりますし，GX680のPCIe Gen3.0対応ドライバが公開されたら優位性はなくなります（今でもレジストリを弄ればGen3.0化できるようですが）．なお，この項目にかかわらず，ベンチマークによってPCIe Gen2.xだったり3.0だったりするので，計測環境には注意が必要です．

ところで，HD7970はTeslaのように双方向通信に対応しているかどうかはこのベンチマークでは分かりません．Dual DMAということで，対応していそうな気はします．

HD7970のDirectComputeでの転送がやたら遅いのは原因不明です．

—

次に汎用演算（小数）を見ます．単位はTFLOPSです．物理モデルを使ったレンダリングを行うベンチマークだそうです．RadeonはCUDAに対応していないので，Not Availableとしています．

製品	GTX680	HD7970
OpenCL Float	1.14	1.65
DirectCompute Float	1.30	1.24
CUDA Float	1.00	NA
OpenCL Double	0.0738	0.434
DirectCompute Double	0.0446	0.257
CUDA Double	0.0787	NA

明らかにGTX680はGF1x0より倍精度演算速度が落とされています．GTX580のさらに半速になっています．これはCUDA C Programming Guideの記述と合致します．

単精度の比較は，ピークのコア性能もメモリ帯域もHD7970の方が上になるのは自然です．

2つの大原記事の結果を結合してみます．HD7970はGen3の方を採用しています．CLがOpenCL，DCがDirectComputeです．

製品	GTX580	GTX680	HD6970	HD7970
CL Float	0.65	1.14(x1.7)	0.759	1.65(x2.2)
CL Double	0.107	0.0738(x0.689)	0.253	0.434(x1.71)
DC Float	0.732	1.30(x1.78)	0.943	1.24(x1.31)
DC Double	0.0657	0.0446(x0.678)	0.158	0.257(x1.63)
CUDA Float	0.66	1.00(x1.52)	NA	NA
CUDA Double	0.128	0.0787(x0.615)	NA	NA

GX680は分かりやすい結果になっています．スペック上，単精度ではGTX680はGTX580のちょうど2倍の性能差があるはずですが，メモリ帯域がネックなのか，スレッドスケジューリングが弱くなったか，ドライバの質が悪いのか，5～8割程度にとどまっています．倍精度は，クロック差を考えれば，GK104はGF114の半速になっていると言い切って良いでしょう．

HD7970の倍精度は，HD6970より7割速くなっています．理論上は4割のはずですが，GCNによりキャッシュ・メモリシステムが大きく進化したので，それが影響したのではないでしょうか．

問題はHD7970の単精度ですが，Tahitiの大原記事は少しおかしいです．HD6970のOpenCL Internal Bandwidthが12.74GB/sしか出ていません．HD7970の15倍も遅いということになり，明らかに不自然です．ドライバかSandra2012に何か問題がありそうなので，ここではとりあえず置いておきます． GTX680とHD7970を比較すると，OpenCLとDirectComputeで結果が逆転していますが，コア性能だけ考えればHD7970の方が速くなるはずです．

—

最後に暗号化（整数）ですが，言うまでもなくHD7970の圧勝です．単位はGB/sです．

製品	GTX680	HD7970
CL AES256 Encrypt	10.7	23.6
CL AES256 Decrypt	11.0	23.6
CL SHA256	4.53	15.2
DC AES256 Encrypt	6.65	29.8
DC AES256 Decrypt	6.42	29.8
DC SHA256	9.87	21.2

GTX680は整数演算が捨てられています．SHA256はGTX580の方が速いほどです．

結果がBandwidthで示されているので，PCIeの速度が影響している（CPUに計算結果を返している）可能性があります．HD6970とも5倍前後差があり，コア性能だけでここまで変わるとは（有り得なくもないですが）考えにくいです．

それにしても，これもOpenCLとDirectComputeでかなり結果に差があるのが不思議です．

—

【LuxMark 2.0】

レイトレーシングベンチです．

http://news.mynavi.jp/special/2012/kepler/006.html

http://www.tomshardware.com/reviews/geforce-gtx-680-review-benchmark,3161-15.html

製品	GTX680	HD7970
Room	282	1044
Sala	617	1745
LuxBall HDR	3982	15436

GTX680はGTX580より遅くなっています．メモリ帯域も大きな原因だとは思いますが，それだけとは思えません．

大原氏の指摘するように，倍精度で演算しているのかもしれないとも思いましたが，ソース（http://src.luxrender.net/luxrays/file/ed66596ed0a8/src/kernels）を見ると，倍精度は使っていませんでした．むしろ，整数演算が多めのように見えます．

—

【DirectCompute&OpenCL Benchmark v0.45b】

GeForceではOpenCLの方が，RadeonではDirectComputeの方が速くなりがちの，よくわからないベンチマークです．

http://news.mynavi.jp/special/2012/kepler/005.html

製品	GTX680	HD7970
OpenCL	9832.8	7875.9
DirectCompute	9078.7	1148175.5

HD7970のDirectComputeは絶対おかしいので，別のサイトも調べてみます．

http://www.oc.com.tw/article/1201/readarticle.asp?id=7194（台湾サイト）によると，HD7970のDirectComputeは約8000だそうです．なぜかHD6970より遅くなってしまっています．http://dpk.itc.ua/content/35308（ロシア語）によると，8528だそうです．CPUによっても変わるので，8000～8500程度が本来の値ということになりそうです．

GTX680がHD7970より若干速い結果になりました．また，どちらのGPUもOpenCLとDirectComputeの差が小さくなりました．

—

【ComputeMark】

3次元流体シミュレーション（3Dテクスチャ版＋2Dテクスチャ配列版），マンデルブロ集合（スカラ型＋ベクタ型），ジュリア集合へのレイトレースといったGPGPU性能を計測します．

http://prohardver.hu/teszt/nvidia_geforce_gtx_680_teszt/computemark_luxmark_konvertalas.html（ハンガリーサイト？）

製品	GTX680	HD7970
1280×800 合計スコア	2403	2652

合計スコアで何か分かるわけでもないですが，GTX680はHD7970とHD7950の間に埋まっています．

http://www.oc.com.tw/article/1201/readarticle.asp?id=7194（台湾サイト）

比較対象がないのでHD7970とHD6970の比較のURLだけ貼っておきます（上と同じですが）．

—

【温度とGPUブースト】

http://www.techpowerup.com/reviews/NVIDIA/GeForce_GTX_680/30.html

温度が上がるとGPUブーストが抑えられるのは既報の通りですが，どれぐらい下げられるのかを示したのが”Templature”の項です．

なんと95度でもブーストクロックの1058MHzで動いています．

よほどのことがない限り，ベースクロックを下回ることはなさそうです．

—

【Media Expresso 6.5】

http://www.tomshardware.com/reviews/geforce-gtx-680-review-benchmark,3161-16.html

動画のエンコード速度です．1920×1080のMPEG2/H.264動画をiPad2用H.264動画に変換します．

GTX680は，MPEG2→H.264ではGTX580より3割遅くなっていますが，HD7970の3/4，HD6970の半分の速度で終わります．

また，H.264→H.264はGTX680がぶっちぎっています．GTX580やHD7970の半分です．

ところで，H.264同士の変換がMPEG2ソースより速いとは知りませんでした．

http://www.guru3d.com/article/geforce-gtx-680-review/6

Intel Quick Sync Videoとの比較です．1080iのH.264ソースです．ちょうど2600K(HD3000)がGTX680とGTX580の中間に入っています．

GeForceについては上の情報源と矛盾しない結果に見えます．

http://techreport.com/articles.x/22653/3

一方こちらはGTX680と2600Kが同じ速度になっています．ソースのフォーマットは不明です．

—

【まとめ】

スペックシートから明確になった点は，

・GK104は固定機能重視，GPGPUは後回し

スペックシートで明確になった点を除き，はっきり言えることは，

・FP16を除いてGTX680とHD7970のピクセル・テクスチャフィルは同性能

・テセレータはGTX680の方が速く，ポリゴンの数が増えるほど差が広がる．

・アルファブレンドはHD7970の方が速い

・長くて複雑なシェーダはHD7970が，パーティクルはGTX680が有利

・GK104に整数演算や倍精度浮動小数点数演算を期待するな

一方疑問点は，

・一部のGPGPUベンチマークでPCIeの帯域が大きく影響している？

・GPU ClothでGTX580/680の差がない理由

・OpenCL/DirectComputeの結果に差がある理由

「GPUって素直じゃないなぁ…」と改めて思いました．

—

【追記】

想像以上のアクセス数があり（検索トップになったり，2chスレに貼られたり…），物凄くびっくりしていますが，少し補足しておきます．

GPGPU向きでないといっても，それは単精度浮動小数以外が大半を占める場合です．パーティクルもある意味GPGPUですし，GPGPUならGTX580やRadeon HD7970の方が上と安易に決めつけることはできません．どんなプログラムを動かすのか，そのプログラムとGK104と相性が良いか悪いかを検証する必要があります．

情報不足のため，動画再生支援の検証は行っていません． GeForce GT520（PV5搭載）は（ローエンドにも関わらず）最も再生支援能力が高く，GTX680がPV5なのか，あるいはそれ以上なのか，情報が手に入ったらまた追記したいと思います．

コメントする »

RSS feed for comments on this post. TrackBack URI

コメントを残すコメントをキャンセル

WordPress.com Blog.
Entries とコメント feeds.

残念なブログ